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摘 要 : [目的 /意义 ] 学 术 社 交 网 络 所 提供 的 问答 服务 已 成 为 学 者 们 快速 获取 学 术 人 信息、 解决 学 术 问 题 的 重要 途径 ,实现 
基于 机 器 学 习 的 问答 质量 智能 评价 和 服务 优化 对 学 术 社 交 网络 中 优质 内 容 传 播 具 有 重要 意义 。|[ 方 法 /过 程 ] 以 
ResearchGate 问答 服务 为 研究 对 象 ,从 结构 化 特征 、 内 容 特 征 、 其 他 特征 以 及 回答 者 特征 4 个 维度 构建 答案 质量 评 


价 体系 ,利用 机 器 学 习 方法 和 数据 增强 技术 进行 答案 质量 分 类 预测 。[ 


结果 /结论 ] SMOTE 算法 在 处 理 不 平衡 样 


本 时 具备 有 效 性 ;支持 向 量 机 在 单一 模型 预测 中 ,取得 出 色 的 分 类 效果 ;组 合 模型 使 预测 精度 得 到 进一步 提升 , 基 
于 随机 和 森林、 支持 向 量 机 、BP 神经 网 络 构建 的 组 合 模型 分 类 性 能 最 佳 , 以 此 为 基础 可 通过 搭建 问答 质量 智能 评价 


系统 实现 学 术 社 交 网 络 问答 服务 优化 。 
词 : 答案 质量 评价 ”问答 服务 
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社会 化 媒体 的 普及 和 繁荣 促使 越 来 越 多 的 学 者 利 


CN 

肝 册 会 化 媒体 获取 和 分 享 学 术 信 息 ,因此 也 催生 了 
的 对 学 者 设计 的 学 术 社交 网 络 平台 ,如 Academia、 
rchGate( RG ) 等 。 为 了 满足 学 者 们 多 元 化 的 需 


雁 竺 富 学 术 信息 的 传播 途径 ,学 术 社 交 网 络 平台 纷纷 
设 这 并 提供 了 独 具 特色 的 功能 与 服务 以 进一步 完善 学 
术 福 交 服 务 体系 。 其 中 ,RG 提供 的 学 术 问 答 服务 已 经 
成 天 学 者 们 快速 获取 学 术 信息 ,增进 彼此 间 交 流 的 重 
要 途径 ,其 由 用 户 自主 提出 个 性 化 问题 ,其 他 具有 相关 
领域 知识 或 经 验 的 用 户 负责 解决 问题 并 提供 个 性 化 的 
答案 品 。 

尽管 学 术 社 交 网 络 平台 问答 服务 为 用 户 提供 了 更 
具 针对 性 的 信息 获取 与 交流 方式 ,由 于 学 术 社 交 网 络 
秉持 自由 开放 精神 ,任何 用 户 都 可 以 随意 地 提问 和 
答 问题 ,造成 了 答案 质量 控制 存在 障碍 ” ,虚假 信息 、 


加 


曝光 量 低 而 被 潭 没 。 

在 学 术 社 交 网 络 情境 下 ,问答 信息 质量 对 用 户 满 
意 具 有 决定 性 作用 ” ,其 质量 的 高 低 代 表 了 对 用 户 期 
望 的 满足 程度 “ 。 利 用 机 器 学 习 或 深度 学 习 模型 在 海 
量 的 问答 交互 数据 中 进行 答案 质量 自动 化 评价 ,自动 
挖掘 和 发 现 高 质量 答案 ,得 除 和 过 滤 低 质 内 容 ,可 以 提 
升学 术 问 答 服 务 信息 质量 水 平 ,满足 用 户 对 信息 质量 
的 期 望 ,是 学 术 社 交 网 络 平台 提高 竞争 优势 .实现 良性 
发 展 的 重要 前 提 ”。 因 此 ,笔者 聚焦 代表 性 学 术 社 交 
网 络 平台 的 问答 交互 数据 ,在 构建 能 够 客观 反映 答案 
质量 的 评价 体系 的 基础 上 ,利用 机 器 学 习 方法 和 数据 
增强 技术 进行 答案 质量 的 智能 分 类 预测 ,并 通过 搭建 
问答 质量 智能 评价 系统 实现 学 术 社交 网 络 问答 服务 的 
优化 。 


2 _ 相关 研究 
社会 化 问答 服务 管 案 质量 控制 存在 障碍 、 信 息 质 


过 时 老化 信息 .元 余 信 息 等 突出 的 信息 质量 问题 给 用 
户 带 来 困扰 中 。 此 外 ,用 户 虽 可 通过 点 赞 、 评 论 等 形式 
对 问答 社区 中 的 问答 质量 提供 一 定 程 度 的 反馈 ” ,但 
马 太 效 应 的 存在 仍 使 众多 高 质量 答案 因 发 布 时 间 晚 、 


量 问题 突出 的 特点 吸引 了 众多 研究 者 的 关注 ,相关 研 
究 主要 立足 于 问答 社区 ,探究 答案 质量 的 影响 因素 和 
答案 质量 评价 两 个 方面 。 

关于 问答 社区 答案 质量 影响 因素 的 研究 ,国内 外 
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学 者 常 基于 数据 质量 框架 "信息 质量 评价 标准 "等 
经 典 理论 探索 和 验证 不 同 因素 对 答案 质量 的 影响 ,如 
基于 数据 质量 框架 和 信息 质量 评价 标准 , 孙 晓 宁 等 "" 
从 内 容 质量 .情境 质量 ,来 源 质量 和 情感 质量 4 个 维 
度 , 实 证 构建 了 社会 化 搜索 答案 质量 评价 模型 ;D， Ish- 
ikawa 等 构建 了 包括 回答 者 经 验证 据 来 源 、 礼 貌 程 
度 .详细 程度 等 12 个 维度 的 社会 化 问答 社区 答案 质量 
评价 指标 体系 。 此 外 , 亦 有 学 者 将 用 户 感知 、 外 部 线索 
等 角度 引入 答案 质量 影响 因素 研究 中 以 完善 答案 质量 
评价 标准 。 如 在 基于 用 户 感知 方面 , 吴 雅 威 等 '” 利用 
信息 构建 理论 从 答案 ,用户 和 社区 视角 出 发 对 学 术 问 
答 社区 用 户 生成 答案 质量 进行 评价 ,并 结合 情绪 理论 、 
认 知 理论 .用 户 行为 等 理论 对 指标 进行 冰释 ;在 基于 外 
部 线索 方面 , 张 爆 轩 5 结合 线索 理论 和 用 户 视角 ,发 
现 信息 利用 线索 .信息 认同 线索 .信息 举报 线索 等 7 类 
处 部 线索 对 用 户 感知 判断 社会 化 问答 社区 信息 质量 产 
坐 饮 响 。 

写 关 于 问答 社区 答案 质量 评价 的 研究 ,目前 学 者 们 
- 嗣 将 答案 质量 评价 视 为 基于 机 器 学 习 的 分 类 问 
题写 ,研究 的 核心 主要 在 “答案 质量 影响 因素 的 选取 与 
给 从 "以 及 “预测 算法 的 选择 与 优化 "上 。 在 影响 因素 
的 囊 取 与 组 合 方面 ,YZ.Cai 和 和 孔 维 泽 等 “ ”提出 
这 英 答 案 动态 特性 的 时 序 特征 ,并 与 其 他 传统 特征 
进 答 比 较 ,发 现 基于 时 间 的 特征 能 更 好 地 预测 最 佳 答 
党 演 委 等 "认为 问答 社区 中 的 答案 具有 一 定 的 情 
6 分 别 将 附加 情感 标注 的 特征 和 社会 情感 特征 引入 
到 答案 质量 自动 化 评价 中 ,结果 表明 情感 特征 的 加 入 
能 态 提 高 分 类 预测 的 准确 率 。 而 在 算法 的 选择 与 优化 
方面 ,L. Li 等 "对 RG 平台 的 回答 质量 展开 研究 ,发 
现 优化 后 的 支持 向 量 机 算法 在 精度 上 比 其 他 模型 有 着 
压倒 性 的 优势 ; 郭 顺利 等 "9 基于 GA-BP 神经 网 络 模型 
设计 答案 质量 自动 化 评价 方法 ,并 选取 “ 知 乎 "数据 进 
行 应 用 研究 ,实验 分 析 发 现 GA-BP 神经 网 络 相 比 于 其 
他 算法 准确 率 较 高 .平均 误差 低 ;LT. Le 等 ' “利用 
Brainly 上 收集 的 问答 数据 验证 其 构建 的 答案 质量 评估 
框架 的 有 效 性 ,实验 表明 个 人 和 社区 特征 对 答案 质量 
预测 更 为 有 效 , 随 机 森林 模型 能 够 准确 识别 高 质量 答 
案 。 此 外 ,除了 使 用 经 典 的 机 器 学 习 方法 , 亦 有 学 者 使 
用 深度 学 习 模 型 开展 答案 质量 评价 研究 ,如 D，V. 
Vekariya 等 2 利用 通用 的 全 局 最 大 池 化 层 压 缩 参 数 的 
数量 减少 计算 量 , 并 结合 DeepLSTM 模型 来 预测 既定 


情感 极 性 转化 为 答案 质量 评价 特征 ,最 终 使 用 Rank 
SVM 算法 融合 多 特征 预测 中 文 问答 社区 的 答案 质量 。 

通过 对 相关 研究 的 梳理 ,不 难 发 现 国内 外 学 者 在 
探索 问答 社区 答案 质量 影响 因素 时 ,除了 延续 数据 质 
量 框架 等 经 典 理 论 外 ,还 尝试 融合 不 同 理论 立足 于 新 
颖 视角 拓展 并 完善 答案 质量 评价 标准 。 然 而 ,无 论 是 
答案 质量 影响 因素 研究 亦 或 是 答案 质量 评价 研究 , 相 
关 人 研究 大 多 集中 在 综合 性 问答 社区 情境 下 (如 :Yahoo! 
Answers 、Quora 、 知 和平 等) ,虽然 产生 了 较 多 人 研究 成 果 , 但 
提出 的 答案 质量 评价 体系 和 自动 化 评价 模型 在 各 类 垂 
直 领 域 问答 社区 中 的 有 效 性 还 有 待 验证。 综合 性 问答 
社区 上 的 用 户 大 多 是 匿名 注册 且 背 景 复杂 , 而 学 术 社 
交 网 络 平台 则 要 求 用 户 在 注册 时 提供 真实 姓名 以 及 所 
属 大 学 或 研究 机 构 的 相关 信息 ,这 确保 了 学 术 问 答 服 
务 上 的 答案 都 是 由 从 事 科 研 工 作 的 人 员 提 供 。 差 异化 
的 用 户 群 体 使 得 这 两 个 平台 上 的 答案 也 表现 一 些 不 同 
的 特点 ,学术 问 答 服 务 的 回答 通常 包含 更 复杂 、 更 专业 
的 内 容 ” ,可 能 会 阐述 一 个 学 术 问 题 的 基本 理论 . 方 
法 .内涵 和 外 延 ”。 在 开展 学 术 问 答 服务 的 答案 质量 
评价 时 ,研究 者 发 现 学 术 问 答 服务 的 管 案 质 量 评价 与 综 
合 性 问答 社区 的 答案 质量 评价 标准 具有 明显 差异 , 因 
而 有 必要 探索 学 术 问 答 服务 评价 答案 质量 的 新 特征 。 
此 外 ,针对 答案 质量 评价 研究 ,国内 外 学 者 的 研究 重心 
都 集中 在 “特征 和 算法 ”上 , 少 有 学 者 从 数据 增强 角度 探 
究 预 测 精度 提升 的 方法 , 且 相 关 研 究 缺 乏 对 学 术 社 交 网 
络 平台 方 的 指导 , 即 如 何在 学 术 社交 网 络 平台 的 问答 服 
务 中 实现 答案 质量 自动 化 评价 ,进而 优化 平台 问答 服 
务 ,都 是 亚 竺 进一步 研究 与 探讨 的 问题 。 
3 研究 设计 

RG 是 当今 最 受 欢 迎 的 学 术 社交 网 络 平台 ,其 
自 2008 年 上 线 至 今 ,平台 上 发 布 的 出 版 物 问答、 研究 
项 目 等 已 超过 1.35 亿 , 用 户 数量 也 已 经 突破 1700 万 。 
同时 , 相 较 于 其 他 学 术 社交 网 络 平台 ,RcG 在 庞大 用 户 
群体 的 基础 上 借助 问答 功能 积累 了 丰富 的 问答 交互 数 
据 资 源 ,可 支撑 问答 质量 智能 评价 研究 。 考 虑 到 问 管 
质量 评价 通常 针对 回答 行为 和 内 容 开 展 评价 工作 , 故 
本 研究 以 RG 为 对 象 , 在 构建 答案 质量 评价 体系 和 自 
动 化 评价 模型 的 基础 之 上 ,开展 基于 问答 质量 智能 评 
价 的 学 术 社 交 网 络 问答 服务 优化 实证 研究 。 

相 比 于 人 工 评价 答案 质量 ,机 器 自动 评价 具有 速 


问题 的 最 佳 答案 ; 贺 勋 等 ”采用 BTM 主题 模型 计算 
“问答 对 ”的 语义 相似 度 , 利 用 BERT 模型 将 答案 评论 


度 快 .精度 高 .成 本 低 等 全 方位 优势 ,能 够 满足 学 术 社 
交 网 络 平台 识别 高 质量 答案 ,优化 问答 服务 的 需求 ， 
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严 炜 炜 , 黄 为 ,， 温馨 . 学 术 社 交 网 络 问答 质量 智能 评价 与 服务 优化 研究 [J]. 图 书 情报 工作 ,2021 ,65(6) :129 - 137. 
此 笔者 采用 机 器 学 习 方 法 实现 RG 平台 的 问答 质量 知 
能 评价 。 本 文 研究 框架 由 评价 体系 构建 与 模型 选择 、 一 一 一 J 一 一 
数据 准备 、 建 模 预 测 3 个 部 分 组 成 ,其 中 评价 体系 构建 | 本 有 | 
与 模型 选择 包括 答案 质量 评价 体系 的 构建 与 指标 量化 Sa | [和 RE | | 
和 评价 模型 选择 ;数据 准备 包括 数据 采集 数据 清洗 ed 
(缺失 值 及 异常 值 的 处 理 等 ) .数据 转换 ( 自动 化 提取 | 
特征 ) ,数据 标注 (人 工 标注 构建 监督 学 习 问题 ) ; 建 模 | 
预测 包括 模型 评估 与 比较 .模型 优化 ,使 用 组 合 模型 实 st | | 
现 分 类 预测 等 步 又 , 见 图 1。 | | 
3.1 答案 质量 评价 体系 en | 
考虑 到 答案 质量 评价 指标 的 科学 性 \ 有 效 性 以 及 | 
完整 性 ,笔者 在 进行 广泛 文献 调研 的 基础 上 ,选取 研究 | 
已 证 实 会 对 答案 质量 产生 影响 的 评价 指标 构建 出 初步 一 一 一 一 | 
的 评价 体系 ,包含 答案 结构 化 特征 ,答案 内 容 特征 以 及 人 
答案 其 他 特征 3 个 维度 指标 ,并 进一步 针对 RG 平台 2 
的 幼 能 特点 对 回答 者 特征 维度 指标 进行 补充 ,以 构建 CS 
i RG 答案 质量 评价 体系 , 见 表 1。 图 1 问答 质量 智能 评价 研究 框架 
9 


表 1 RG 答案 质量 评价 体系 


CD 维度 指标 解释 及 说 明 主要 参考 文献 来 源 
全 涯 案 结构 化 特征 文本 长 度 答案 包含 的 字符 数 [16,26] 
关键 词 数量 答案 包含 的 关键 词 数 量 [16 -17] 
要 句子 数量 答案 包含 的 句子 数量 [16 -17] 
长 句 占 比 答案 中 长 句 数量 与 句子 总 数 的 比 [26 ] 
>< 标点 符号 占 比 答案 中 标点 符号 数量 与 字符 数 的 比 [16,26] 
问题 答案 长 度 比 问题 长 度 与 答案 长 度 的 比 [17] 
r= 问题 答案 主题 相似 度 问题 与 答案 的 主题 相似 程度 [26] 
GO) 文本 多 样 性 答案 的 用 词 多 样 性 [26 ] 
管 案 信 息 炉 答案 包含 的 信息 量 [26 ] 
答案 情感 态度 答案 所 呈现 出 的 回答 者 情感 倾向 [16 -17] 
答案 主观 必 答案 的 主观 程度 [26 -27] 
答案 其 他 特征 答案 回答 顺序 答案 在 所 有 答案 中 的 位 置 , 按 回 答 时 间 升 序 排 列 15 ,17] 
答案 推荐 量 答案 被 赞同 /支持 的 数量 17 ,26] 
回答 者 特征 RG-score RG 制定 的 一 个 评价 用 户 的 指标 15,17] 
RI RG 制定 的 用 于 衡量 用 户 对 科研 成 果 研究 兴趣 的 指标 15,17] 
引文 量 可 答 者 所 有 项 目 或 研究 资料 在 RG 上 被 引用 的 总 数 15,17 ] 
个 人 获 赞 量 回答 者 收获 RG 其 他 用 户 推荐 的 总 数 15 ,26] 
阅读 量 可 答 者 所 有 项 目 或 研究 资料 在 RG 上 浏览 量 总 和 自 设 
项 目 数 回答 者 在 RG 上 发 布 的 科研 项 目 数量 自 设 
回答 数 回答 者 在 RG 上 回答 问题 的 数量 [16 -17] 
提问 数 回答 者 在 RG 上 提出 问题 的 数量 [16 -17] 
回答 者 头像 可 答 者 是 否 拥有 头像 自 设 
研究 项 目 数量 回答 者 在 RG 上 的 发 布 或 认领 的 研究 资料 数量 ,包括 期 刊 论 文 、 自 设 
会 议论 文 . 预 印 本 等 类 型 
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3.1.1 答案 结构 化 特征 
结构 化 特征 是 指 可 以 直接 由 答案 统计 得 到 的 特 
征 。 与 传统 的 网 页 资源 相同 ,学 术 社 交 网 络 平台 问 


中 的 位 次 。 答 案 的 认可 度 (推荐 量 ) 体 现 了 答案 的 价 
值 ,答案 推荐 量 越 高 , 则 该 答案 是 高 质量 答案 的 可 能 
性 越 大 。 笔 者 引入 “答案 推荐 量 " 作为 反映 其 他 用 户 


答 服 务 的 答案 主要 以 文本 的 形式 呈现 。 因 此 ,适用 


认可 度 的 指标 ,其 是 平台 自 有 指标 ,可 由 爬虫 在 RG 


于 分 析 传统 网 页 质量 的 相关 指标 及 方法 都 可 以 应 用 
于 学 术 问答 服务 中 答案 质量 的 评价 ,具体 包括 文本 
长 度 .关键 词 数量 标点 符号 占 比 等 。 答 案 结构 化 特 
征 的 量化 较为 简单 ,借助 分 词 工具 和 文本 处 理 技术 ， 
编写 python 程序 可 直接 从 答案 文本 中 进行 指标 的 统 
计 和 量化 。 
3.1.2 答案 内 容 特征 
内 容 特征 是 指 蕴含 在 文本 中 ,需要 通过 自然 语言 

处 理 后 才能 表现 出 来 的 特征 。 答 案 内 容 特征 的 量化 方 
如 下 : 
一 (1 ) 问 题 答案 主题 相似 度 。 高 质量 答案 与 对 应 问 

属于 同一 个 主题 ,使 用 LDA 主题 模型 分 别 计算 
$ 移 及 其 对 应 问题 的 主题 ,再 对 两 者 的 主题 相似 性 进 


(2) 文 本 多 样 性 。 文 本 多 样 性 由 答案 文本 的 用 词 


多 积 性 进行 量化 得 到 ” ,文本 中 词汇 平均 出 现 的 次 数 
越 多 ,答案 用 词 多 样 性 越 强 。 文 本 多 样 性 的 计算 方式 
如 信 式 (1) ,其 中 了 为 每 个 词汇 在 答案 中 出 现 的 次 数 。 


《4 


ES 


>: 7. 


Dgrm =— 公式 (1) 


><(3) 答 案 信息 焙 。 从 信息 传播 的 角度 来 看 ,信息 
炉 旺 以 表示 信息 的 价值 。 高 质量 答案 是 具有 价值 的 信 
息 z 国 此 , 信息 精 在 一 定 程度 上 可 以 反映 答案 的 质 
量 当 。 管 案 信息 炳 可 通过 公式 (2) 计算 ,其 中 P, 为 每 
个 字母 在 信息 中 出 现 的 概率 。 
Hrsws = — 2; PP, * log, P., 公式 (2) 

(4) 管 案情 感 态度 和 答案 主观 性 。 高 质量 答案 比 
一 般 答 案 更 具有 情感 贷 向 "" ,回答 者 的 态度 在 一 定 程 
度 上 决定 对 管 案 的 认可 度 ” ,因此 情感 态度 和 主客 观 
性 对 答案 质量 存在 影响 。 使 用 TextBlob 包 ( 处 理 文本 
的 python 库 ) 对 答案 文本 进行 情感 分 析 以 及 主观 性 判 
断 , 答 案情 感 态度 及 主观 性 由 程序 输出 的 数值 结果 进 
行 量化 得 到 。 
3.1.3 ”答案 其 他 特征 

问答 服务 中 的 提问 是 具有 时 效 性 的 ,提问 者 通常 
希望 在 短 时 间 内 得 到 解答 ,可 见 答案 的 价值 与 其 回答 
时 间 负 相关 。 笔 者 引入 “答案 回答 顺序 "作为 反映 答 
案 时 效 属性 的 指标 ,将 所 有 答案 按照 回答 时 间 进 行 
升序 排列 ,“ 管 案 回答 顺序 "为 当前 管 案 在 时 间 序列 


网 页 中 获取 。 由 于 “答案 回答 顺序 ”和 “ 管 案 推 荐 量 ” 
无 法 归 入 其 他 维度 , 故 将 这 两 个 指标 一 并 归 为 答案 
其 他 特征 。 
3.1.4 回答 者 特征 

回答 者 特征 关注 RG 平台 用 户 在 问答 交互 中 自身 
对 答案 质量 所 造成 的 影响 ,通常 情况 下 意见 领袖 或 专 
业 程 度 更 高 的 专家 用 户 所 提供 答案 的 质量 更 高 并 能 够 
获得 更 多 用 户 的 支持 。 为 了 提取 出 能 够 反映 回 管 

影响 力 的 特征 ,笔者 结合 RG 平台 上 可 获取 到 的 用 

户 指标 ,参照 意见 领袖 识别 模型 ENIA™™ ,了 RG-score、 
RI 值 .引文 量 `. 个 人 获 赞 量 .阅读 量 、 项目 数 等 作为 回 
答 者 专业 性 活跃 度 .影响 力 等 方面 的 评价 指标 ,相关 
指标 可 在 回答 者 个 人 主页 信息 中 直接 获取 并 量化 分 
析 。 
3.2 ”模型 选择 

笔者 选取 ID3 决策 树 (Tterative Dichotomiser 3， 
ID3) 、 随 机 森林 (Random Forest, RF ) 支持 向 量 机 
(Support Vector Machine, SVM ) 和 BP 神经 网 络 (BP 
Neural Networks , BP ) 等 答案 质量 自动 化 评价 任务 中 的 
常见 模型 作为 实现 学 术 社 交 网 络 平台 问答 质量 智能 评 
价 的 基础 待 构建 模型 。 其 中 ,ID3 作为 经 典 的 分 类 算 
法 , 虽 性 能 表现 一 般 ,但 运行 速度 快 、 模 型 可 解释 性 强 ， 
满足 基线 预测 模型 的 要 求 , 因 此 笔者 选择 ID3 作为 基 
线 预 测 模型 。 当 分 类 模型 的 性 能 表现 优 于 ID3 时 , 则 
视 为 该 模型 有 价值 ,能够 参与 组 合 模型 预测 。 同 时 , 考 
虑 到 RF 适用 于 数据 维度 相对 较 低 ( 几 十 维 ) 且 对 准确 
性 有 较 高 要 求 的 情况 ;而 SVM 在 解决 小 样本 下 的 机 器 
学 习 问 题 时 有 着 不 错 的 表现 , 故 选择 RF 和 SVM 作为 
分 类 预测 模型 ,符合 本 研究 问答 数据 维度 低 (23 维 ) 、 
数据 量 小 的 特点 。 此 外 ,BP 是 目前 最 常见 的 深度 学 
习 算 法 之 一 ,拥有 强大 的 特征 拟 合 能 力 ” ,适用 于 特 
征 之 间 存 在 内 在 联系 的 情况 。 由 于 笔者 在 构建 答案 
质量 评价 体系 时 ,为 避免 数据 降 维 导致 重要 信息 缺 
失 , 故 尽 可 能 地 保留 已 有 变量 ,使 得 评价 体系 存在 宛 
余 , 评 价 指标 之 间 存 在 一 定 的 相关 性 ,因此 选用 BP 
作为 分 类 模型 ,符合 本 研究 问答 数据 特征 间 存 在 内 
在 联系 的 特点 。 
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4 ”学 术 社 交 网 络 问答 质量 智能 评价 实证 
分 析 


4.1 数据 准备 
4.1.1 数据 获取 与 预 处 理 

笔者 获取 RG 问答 服务 中 AI 主题 下 ”Can technol- 
ogy replace a teacher?” 问题 截 至 2020 年 7 月 6 日 之 前 
所 有 的 答案 及 回答 者 的 相关 数据 ,共计 3 873 条 。 考 
虑 到 人 工 标注 的 成 本 问题 ,笔者 采用 系统 抽样 的 方式 ， 
即 从 第 一 条 答案 开始 抽样 ,以 200 条 为 抽样 间隔 距离 ， 
最 终 筛 选 出 2 000 条 答案 作为 原始 数据 。 对 2 000 条 
原始 数据 进行 数据 清洗 , 噜 除数 据 中 的 缺失 值 .异常 值 
以 及 乱码 数据 等 ,最 终 得 到 可 用 于 构建 模型 的 数据 
1 670 条 ,并 结合 python 自动 化 程序 对 各 指标 进行 量 


2 数据 标注 

与 依据 已 有 问答 社区 答案 质量 影响 因素 研究 ” ， 
从 丑 用 性 .相关 性 .完整 性 .可 读 性 及 说 服 力 5 个 维度 
对 线 案 进行 评价 并 完成 质量 标注 。 其 中 ,实用 性 衡量 
答案 是 否 能 帮助 解决 问题 ,相关 性 衡量 答案 是 否 和 问 
题 相 关 , 完 整 性 衡量 答案 是 否 完整 , 全 面 地 解答 问题 ， 
栈 涝 性 衡量 答案 是 否 通俗 易 懂 , 说 服 力 衡量 答案 是 否 
可 意 . 

一 在 具体 标注 过 程 中 ,首先 邀请 具有 RG 问答 服务 


使 用 经 验 的 4 名 用 户 作 为 标注 人 ;然后 ,对 标注 人 进行 
培训 ,使 其 形成 一 致 的 评价 标准 ;最 后 ,采用 人 工 标注 
的 方式 对 答案 质量 进行 二 类 标注 (1 为 高 质量 ,0 为 低 
质量 ) 标 注 完 成 后 得 到 带 标 签 的 数据 集 。 完 成 标注 的 
数据 集中 含有 高 质量 样本 251 条 , 低 质量 样本 1 419 
条 ,两 者 之 比 接近 1: 6。 
4.2 模型 的 评估 与 比较 

本 研究 使 用 python3. 70 编程 工具 以 及 keras、 
sklearn .imblearn 等 python 库 来 实现 RG 问答 服务 答案 
质量 自动 化 评价 模型 的 搭建 。 首 先 ,将 准备 好 的 数据 
集 上 自动 划分 为 训练 集 和 测试 集 ,设置 划分 比例 为 训练 
集 80% ,测试 集 20% ;其 次 ,使 用 训练 集 分 别 训 练 ID3、 
RF SVM \BP 共 4 种 算法 ;最 后 ,在 调整 参数 优化 模型 
后 ,利用 模型 在 测试 集 上 的 查 准 率 ( Precision) 、 查 全 率 
(Recall) 以 及 Fl-score 来 比较 各 类 算法 的 性 能 。 其 中 ， 
查 准 率 代表 预测 结果 中 分 类 正确 的 正 类 样本 数量 占 预 
测 结果 中 所 有 正 类 样本 数量 的 比例 ; 查 全 率 表示 预测 
结果 中 判断 正确 的 正 类 样本 数量 占 所 有 真实 正 类 样本 
数量 的 比例 。 查 准 率 和 查 全 率 是 比较 常见 的 性 能 评价 
指标 ,两 个 指标 的 数值 与 分 类 器 的 性 能 成 正比 ,数值 越 
高 模型 的 效果 越 好 。Fl1-score 是 查 准 率 和 查 全 率 的 调 
和 平均 数 ,该 指标 综合 考虑 两 个 数值 的 评估 标准 ,可 以 
对 分 类 器 的 效果 进行 更 全 面 的 评估 ” 。4 种 分 类 模型 
的 性 能 表现 如 表 2 所 示 : 


表 2 4 种 分 类 模型 预测 性 能 评价 ( 优化 前 ) 


0 1 
Precision Recall Fl Support Precision Recall Fl Support 
G5 0.90 0.92 0.91 284 0.48 0.42 0.45 50 
RF 0.90 0.92 0.91 284 0.47 0.42 0.44 50 
SVM 0.87 0.98 0.92 284 0.59 0.20 0.30 50 
BP 0.90 0.95 0.93 284 0.61 0.40 0.48 50 


对 比 上 述 结果 可 以 发 现 ,4 种 模型 在 对 RG 问答 服 
务 的 答案 质量 进行 分 类 预测 时 ,和 丝 出 现 分 类 结果 癌 多 
数 类 偏 移 的 不 平衡 分 类 问题 ( 即 分 类 器 趋向 于 提供 
个 严重 不 平衡 的 精确 度 ,多 数 类 的 精确 度 高 ,而 少数 类 
的 精确 度 却 十 分 低 ) ,从 而 导致 预测 失败 ,无 法 得 到 准 
确 的 结果 ,模型 不 具备 检测 出 高 质量 的 答案 的 能 力 ( 查 
准 率 、 查 全 率 和 下 l-score 均 偏 低 )。 

这 种 问题 对 于 学 术 社 交 网 络 问 答 质 量 智能 评价 危 
害 极 大 ,因为 问答 质量 智能 评价 的 最 终 目 的 是 实现 高 
质量 答案 的 筛选 和 展示 ,所 以 对 高 质量 答案 进行 正确 
分 类 尤为 重要 。 通 常 而 言 , 针 对 正 负 样 本 数量 差别 悬 
殊 的 情况 ,通过 从 采样 或 过 采样 的 方法 调整 数据 的 分 


布 可 以 使 这 种 情况 得 到 改善 。 其 中 ,过 采样 通过 一 定 
的 方法 使 少数 类 的 样本 数量 增多 至 和 多 数 种 类 差不多 
的 个 数 ,从 而 使 得 两 类 样本 的 数量 之 比 处 于 相对 平衡 
的 状态 ,其 适用 于 数据 量 较 小 且 标签 样本 不 平衡 的 
情况 ,与 本 文 情况 相符 。 为 了 使 模型 能 够 具备 筛选 高 
质量 答案 的 能 力 ,笔者 将 针对 RG 平台 答案 数据 不 平 
衡 的 特点 ,从 数据 层面 采用 过 采样 技术 改变 “标签 样本 
不 平衡 "的 现象 ,再 对 高 质量 答案 进行 预测 。 
4.3 基于 SMOTE 算法 的 模型 优化 

本 研究 采用 过 采样 技术 SMOTE 算法 ( Synthetic 
Minority Oversampling Technique) 来 解决 标签 样本 的 
非 平衡 问题 。SMOTE 算法 是 基于 随机 过 采样 算法 的 一 
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种 改进 方案 ,是 目前 处 理 非 平衡 数据 的 常用 手段 ,受到 
学 术 界 和 工业 界 的 一 致 认同 ” 。SMOTE 算法 模拟 生成 
新 样本 的 过 程 采 用 了 KNN 技术 (K-Nearest Neighbor) ,在 
生成 样本 时 ,不 再 是 对 原始 样本 进行 简单 地 随机 复制 ， 
因此 ,生成 的 新 样本 更 具有 代表 性 。 采 用 SMOTE 过 采 
样 前 后 产生 的 训练 集 和 测试 集 对 比如 表 3 所 示 : 


将 经 SMOTE 算法 平衡 后 的 数据 集 进行 重新 划分 ， 
利用 训练 集 再 次 训练 4 种 分 类 模型 ,并 对 模型 效果 进 
行 分 析 , 见 表 4。 

对 比 上 述 结果 可 以 发 现 ,在 使 用 SMOTE 算法 对 
模型 性 能 进行 优化 后 ,4 种 模型 对 高 质量 答案 分 类 的 
查 准 率 、 查 全 率 都 有 较 大 提升 ,能 够 满足 高 质量 答案 


表 3 ”训练 样本 与 测试 样本 划分 筛选 的 需求 。 具 体 而 言 ,ID3 决策 树 的 性 能 表现 相 比 
原始 数 所 SMOTE 平衡 于 其 他 几 类 算法 较 差 ; 随 机 森林 和 BP 神经 网 络 的 性 
击 质 量 答案 。 低 质 量 答案 。 高 质量 答案 。 低 质量 答案 能 较 好 且 较 为 接近 ;SVM 模型 的 表现 最 佳 ,其 性 能 明 
人 2 M9 a 0 显 优 于 其 他 分 类 算法 ,有 着 最 高 的 查 准 率 、 查 全 率 和 
训练 样本 201 1 135 993 993 
上 1 -score。 
测试 样本 50 284 426 426 
表 4 4 种 分 类 模型 预测 性 能 评价 ( 优化 后 ) 
0 
Precision Recall Fl Support Precision Recall Fl Support 
0.88 0.84 0.86 426 0.85 0.89 0.87 426 
0.92 0.88 0.90 426 0.89 0.92 0.91 426 
0.95 0.92 入 强 426 0.92 0.95 0.94 426 
0.91 0.90 0.90 426 0.90 0.91 0.91 426 


赁 讲 一 定 的 方法 将 模型 组 合 起 来 进行 预测 。 这 种 组 合 


琉 测 的 思想 源 于 1969 年 ,由 本 M，Bates 和 CW. J 
Granger 两 位 学 者 提出 ,并 普遍 应 用 于 机 器 学 习 领 域 。 


两 堪 组 合 ( RF + BP SVM + BP SVM + RF) 和 全 模型 组 
合 CSVM + RF +BP) 。 
@O 组 合 预测 是 基于 “动态 加 权 ” 的 方式 实现 的 ,在 两 


两 组 合 情 况 下 , 设 模型 1 的 预测 值 为 M, ,模型 2 的 预 
测 值 为 M ,并 分 别 给 两 个 模型 赋予 动态 权 值 w 和 w,。 
此 时 ,组 合 模型 的 预测 值 Y 由 公式 (3 ) 计算 得 到 ,其 中 
wi +w; =1,wi 取 [0.1, 0.9] 递 增 的 9 个 数值 。 
Y=zw MI +2，M， 公式 (3 ) 
同 理 , 全 模型 组 合 情 况 下 组 合 模型 的 预测 值 则 由 
3 个 模型 的 预测 结果 动态 加 权 得 到 。 随 着 加 权 比 例 的 
改变 ,同一 组 合 模型 也 能 得 到 不 同 的 预测 结果 , 当 模型 
预测 效果 最 好 时 ,得 到 最 优 加 权 比 例 ,4 种 组 合 模型 的 
最 优 加 权 结 果 如 表 5 所 示 : 


表 5 组 合 模型 性 能 评价 
0 1 
组 合 模型 
Precision Recall Fl Support Precision Recall Fl Support 
0.6 RF + 0.4 BP 0.94 0.92 0.93 426 0.92 0.95 0.93 426 
0.7 SVM +0.3 BP 0.95 0.93 0.94 426 0.93 0.96 0.94 426 
0.5 SVM +0.5 RF 0.95 0.93 0.94 426 0.94 0.95 0.94 426 
0.4 SVM +0.2 RF +0.4 BP 0.96 0.94 0.95 426 0.94 0.96 0.95 426 


结果 显示 ,将 多 个 模型 进行 组 合 预测 后 ,预测 效果 
较 单一 模型 预测 有 明显 提升 。 而 当 SVM 、 随 机 森林 、 
BP 神经 网 络 按照 4: 2: 4 的 比例 组 合 时 ,模型 的 预测 
效果 要 优 于 其 他 两 两 组 合 模型 , Fl-score 达到 96% , 模 
型 泛 化 能 力 最 强 。 由 此 可 见 , 借 助 组合 思想 构建 组 合 
式 答 案 质 量 预 测 模型 在 实现 高 质量 答案 蔓 选 时 具备 有 
效 性 ,可 将 组 合 模 型 应 用 于 学 术 社 交 网 络 问答 质量 的 


智能 评价 之 中 。 
5 ”基于 问答 质量 智能 评价 的 问答 服务 优化 
结合 前 文 实证 分 析 结 果 , 在 RG 问答 服务 功能 

提出 问答 质量 智能 评价 系统 架构 方案 如 图 2 所 示 , 以 
实现 学 术 社交 网 络 平台 问答 服务 的 优化 。 该 系统 主要 
包括 3 个 部 分 :问答 数据 的 收集 与 处 理 ,答案 质量 评价 
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能 评价 与 服务 优化 研究 [J]. 图 书 情报 工作 ,2021 ,65(6) :129 -137. 


以 及 高 质量 答案 展示 。 其 中 ,前 两 个 部 分 是 实现 答 
质量 自动 化 评价 的 基础 ,能 够 对 问答 服务 中 的 优质 


案 


回 


互 


训练 集 


5 人 DD 问答 数据 的 收集 与 处 理 
< 系统 与 RG 平台 的 问答 数据 库 进行 连接 , 自动 获 


类 篇 中 包含 的 特征 ) 等 一 系列 加 工 处 理 过 程 ,形成 可 供 
武宣 评 价 的 原始 数据 。 
5。 它 答案 质量 评价 

< 使 用 前 文 证 实 性 能 最 优 的 组 合式 模型 作为 RG 平 
名 作答 服务 答案 质量 自动 化 评价 模型 ;将 问答 数据 库 
币 节 出 的 问 管 数据 输入 到 组 全 预测 模 型 中 ,通过 计算 
机 程序 实现 答案 质量 的 自动 化 预测 及 标注 ,完成 答案 
质量 评价 。 


回答 展示 “优质 内 容 推送 机 制 " 和 ”回答 者 激励 机 
制 ”, 该 部 分 将 围绕 着 问答 服务 两 端的 主要 参与 者 ( 信 
息 接 受 端 即 潜水 者 、 提 问 者 ;信息 发 送 端 即 回答 者 ) 用 
户 体验 的 改善 展开 。 

以 上 系统 架构 方案 同样 可 为 其 他 学 术 社交 网 络 平 
台 问 答 服务 版 块 的 优化 设计 提供 参考 借鉴 。 尤 其 是 目 
前 国内 的 学 术 社 交 网 络 平台 尚 处 于 发 展 初 期 ,平台 的 
问答 服务 功能 仍 有 待 进一步 的 开发 和 完善 ,通过 搭建 
问答 质量 智能 评价 系统 ,能 够 帮助 平台 在 信息 质量 问 
题 显 现 初期 对 其 进行 有 效 的 把 控 , 避 免 负面 影响 的 持 
续 扩 大 ,给 用 户 造成 困扰 ;同时 ,该 系统 能 够 挖掘 平台 
中 的 优质 内 容 以 提升 问答 服务 信息 质量 水 平 ,促进 平 


Nl 


答 进 行 挖掘, 最 后 一 个 部 分 聚焦 高 质量 答案 展示 功能 ， 
是 用 户 体验 改善 的 直接 推动 力 。 


台 更 好 地 发 展 。 具 体 而 言 ,学 术 社 交 网 络 平台 在 实现 
问答 质量 智能 评价 系统 的 基础 上 ,可 在 每 一 个 问题 的 
所 属 页 面 创建 < 优质 回答 ”板块 ,将 系统 自动 筛选 出 的 
高 质量 答案 进行 展示 ,使 得 处 在 信息 接受 端的 潜水 者 
和 提问 者 能 在 浏览 问题 的 第 一 时 间 内 接触 到 潜在 的 有 
回答 ,节省 用 户 搜寻 回答 的 时 间 成 本 ,提高 用 户 的 浏 
览 体验 。 而 且 人 的 内 心 深 处 都 渴望 获得 重视 与 欣 
赏 ” ,用 户 的 优质 回答 被 公开 展示 可 视 为 其 在 学 术 社 
交 网 络 平台 中 的 贡献 与 分 享 得 到 肯定 ,将 激发 回答 者 
的 创作 热情 ,提高 他 们 在 学 术 问 答 服务 中 的 参与 度 。 
同时 ,在 挖掘 出 潜在 优质 内 容 的 基础 之 上 ,可 进一步 结 
合用 户 专业 背景 与 研究 兴趣 ,建立 “优质 内 容 推 荐 机 
制 ”, 定 期 向 用 户 推 送 其 可 能 感 兴趣 的 问题 并 附 上 优质 
回答 ,促进 优质 内 容 的 快速 传播 。 此 外 ,考虑 到 回答 者 
在 回答 问题 后 收获 的 关注 或 认同 将 给 回答 者 带 来 愉悦 
性 ,并 正 向 影响 回答 者 回答 问题 的 意愿 ，。 因 此 在 回 
答 者 的 答案 被 系统 认定 为 优质 回答 时 ,以 社区 积分 、 荣 
誉 勋章 等 作为 “优质 回答 激励 机 制 " 可 激发 回答 者 的 
认同 感 和 成 就 感 ,并 促进 回答 者 的 持续 参与 。 


6 结论 与 不 足 


笔者 利用 机 器 学 习 方 法 对 答案 质量 进行 自动 化 评 
价 ,推动 问答 质量 智能 评价 的 实现 ,进而 促进 学 术 社 交 
网 络 平台 问答 信息 质量 的 提升 和 服务 的 优化 。 实 证 研 
究 结果 揭示 了 从 答案 结构 化 特征 ,答案 内 容 特征 答案 
其 他 特征 .回答 者 特征 4 个 角度 筛选 学 术 社交 网 络 问 
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答 服 务 中 的 优质 内 容 (高 质量 答案 ) 的 可 行 性 和 合理 
性 ,而 通过 采用 机 器 学 习 方法 ,结合 SMOTE 等 数据 增 
强 技术 ,并 基于 组 合 思 ; 人 预测 模 
型 , 则 可 有 效 实现 高 质量 答案 的 筋 选 。 此 外 ,笔者 还 提 
出 了 问答 质量 智能 评价 系统 设计 与 实现 的 整体 四 
为 RG 以 及 其 5 他 学 术 社 交 网 络 平台 优化 其 问答 服务 提 
供 了 参考 与 借鉴 。 优 化 方案 通过 向 用 户 展示 优质 内 
容 ,满足 用 户 对 于 信息 质量 的 期 望 ; 同 时 ,通过 展示 高 
质量 答案 为 回答 者 建立 社区 认同 感 和 成 就 感 ,激励 其 
问答 服务 的 持续 参与 ;最 终 ,通过 双向 提升 问答 服务 两 
端 用 户 的 粘性 ,实现 学 术 问 答 服 务 的 良性 循环 。 

本 文 研 究 工 作 还 存在 一 定局 限 性 。 一 方面 ,笔者 
仅 围 绕 AI 主题 的 问答 数据 ,验证 答案 质量 评价 体系 和 
印 动 化 评价 模型 的 有 效 性 和 合理 性 ,选取 的 话题 内 容 
视 二 单一 ,后 续 研 究 可 在 更 广 范 围 主题 中 进行 行 模型 的 
进 合 步 验证 分 析 。 另 一 方面 ,笔者 依据 RG 平台 的 问 
数据 展开 研究 ,相关 结论 和 服务 优化 方案 在 其 他 学 
s 神 交 网 络 平台 或 问答 社区 中 的 应 用 效果 有 待 进 一 
所 此 外 ,本文 研究 后 在 学 术 社交 网 络 平台 方 指 
本 续 研究 还 可 进一步 从 回答 者 

视角 对 答案 质量 进行 更 加 深入 的 探究 。 
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二 Abstiract: | Purpose/significance | The Q&A service provided by academic social networking site has become 
CD important way for scholars to access academic information quickly and solve academic problems. It is of great sig- 
0 for the dissemination of high-quality content in academic social networking site to implement the intelligent 
Taluation of Q&A quality and the service optimization based on machine learning. | Method/process| This paper 
Sk ResearchGate as the research object, constructed an answer quality evaluation system based on four dimensions 


structural features, content features, respondent characteristics and other characteristics of answers, and then used 


na 


sachine learning methods and data augmentation technology to perform the automatic answer quality classification 
Bydiction. | Result/ conclusion | The results show that SMOTE algorithm is effective in dealing with unbalanced 
samples; In the first mock exam, support vector machine (SVM ) achieves excellent classification performance; The 
combined model can further improve the prediction accuracy，and the combined model based on random forest, SVM 
and BP neural network has the best classification performance. On this basis, the academic social network Q&A serv- 
ice can be optimized by building the intelligent quality evaluation system. 
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